AI资讯新闻榜单内容搜索- DeepSeek

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索:  DeepSeek
Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释

Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释

Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释

「工程师正在疯狂地分析 DeepSeek,试图从中复制任何可能的东西。」DeepSeek 开源大模型的阳谋,切切实实震撼着美国 AI 公司。最先陷入恐慌的,似乎是同样推崇开源的 Meta。

来自主题: AI资讯
6674 点击    2025-01-24 10:59
DeepSeek-R1 是怎么训练的|深度拆解

DeepSeek-R1 是怎么训练的|深度拆解

DeepSeek-R1 是怎么训练的|深度拆解

昨天晚上,DeepSeek 又开源了 DeepSeek-R1 模型(后简称 R1),再次炸翻了中美互联网: R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。 R1 上线 API,对用户开放思维链输出 R1 在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版,小模型则超越 OpenAI o1-mini

来自主题: AI技术研报
18727 点击    2025-01-21 13:15
最强代码模型刷新:Mistral新品上线即登顶,上下文窗口增至256k

最强代码模型刷新:Mistral新品上线即登顶,上下文窗口增至256k

最强代码模型刷新:Mistral新品上线即登顶,上下文窗口增至256k

“欧洲版 OpenAI” Mistral 的代码模型 CodeStral,又上新了! 而且与 DeepSeek V2.5 和 Claude 3.5 平起平坐,共同位列 Copilot 竞技场第一名。

来自主题: AI资讯
7008 点击    2025-01-14 15:42
省钱也是技术活:解密DeepSeek的极致压榨术

省钱也是技术活:解密DeepSeek的极致压榨术

省钱也是技术活:解密DeepSeek的极致压榨术

没有GPU Poor,只有卷得不够多。 DeepSeek-V3的横空出世,用一组惊人的数据完美诠释了这句话。

来自主题: AI资讯
7341 点击    2025-01-02 10:19
又是来自浙大,“大模型届的拼多多”要刺破英伟达泡沫?

又是来自浙大,“大模型届的拼多多”要刺破英伟达泡沫?

又是来自浙大,“大模型届的拼多多”要刺破英伟达泡沫?

一个来自中国的开源模型,让整个AI圈再次惊呼“来自东方的神秘力量”。 昨天,国内知名大模型创业公司“深度求索”通过官方公众号宣布上线并同步开源 DeepSeek-V3模型,并公布了长达53页的训练和技术细节。

来自主题: AI资讯
7027 点击    2024-12-29 10:50
超越Claude 3.5紧追o1!DeepSeek-V3-Base开源,技术文档PDF全公开

超越Claude 3.5紧追o1!DeepSeek-V3-Base开源,技术文档PDF全公开

超越Claude 3.5紧追o1!DeepSeek-V3-Base开源,技术文档PDF全公开

在 2024 年底,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了最新的混合专家(MoE)语言模型 DeepSeek-V3-Base。虽然,目前没有放出详细的模型卡,但官方开源了V3的技术文档PDF。

来自主题: AI资讯
7352 点击    2024-12-27 14:35
久等了,DeepSeek开源视觉模型DeepSeek-VL2来了

久等了,DeepSeek开源视觉模型DeepSeek-VL2来了

久等了,DeepSeek开源视觉模型DeepSeek-VL2来了

阔别九月,大家期待的 DeepSeek-VL2 终于来了!DeepSeek-MoE 架构配合动态切图,视觉能力再升级。从视觉定位到梗图解析,从 OCR 到故事生成,从 3B、16B 再到 27B,DeepSeek-VL2 正式开源。

来自主题: AI技术研报
10103 点击    2024-12-14 10:17
DeepSeek 推理模型预览版上线,解密 o1 推理过程

DeepSeek 推理模型预览版上线,解密 o1 推理过程

DeepSeek 推理模型预览版上线,解密 o1 推理过程

今天,DeepSeek 全新研发的推理模型 DeepSeek-R1-Lite 预览版正式上线。所有用户均可登录官方网页 (chat.deepseek.com),一键开启与 R1-Lite 预览版模型的超强推理对话体验。DeepSeek R1 系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。

来自主题: AI资讯
10005 点击    2024-11-20 23:11
Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus 是 DeepSeek AI 开发的一个先进的多模态理解和生成框架,它通过创新性地解耦视觉编码路径来应对多模态理解和生成任务之间的需求冲突。

来自主题: AI技术研报
7516 点击    2024-10-29 14:46
解读大模型价格战:着急的大厂,「不太慌」的模型厂商和创业者

解读大模型价格战:着急的大厂,「不太慌」的模型厂商和创业者

解读大模型价格战:着急的大厂,「不太慌」的模型厂商和创业者

自 5 月 6 日 DeepSeek 提出降价、实现百万 Tokens 输入 1 元开始,字节、智谱、阿里、百度、讯飞、腾讯等也先后加入到降价浪潮中。到 5 月 22 日,ERNIE Speed、ERNIE Lite、讯飞星火 Lite、混元-lite 模型等均已实现限定条件下免费。

来自主题: AI资讯
8475 点击    2024-05-27 09:21